PP /合作 
el 


第 37 卷 第 5 其 计算 机 应 用 研究 A 


录用 定稿 Application Research of Computers Accepted Paper 
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摘 要 : 生成 对 抗 网 络 (generative adversarial networks，GAN) 是 今年 来 最 热门 的 生成 模型 之 一 ， 使 用 生成 对 抗 网 络 

和 它 的 一 些 改 进 模型 可 以 生成 随机 图 像 ， 或 是 质量 不 高 的 特定 图 像 。 目 前 并 没有 能 够 使 用 简单 的 网 络 结构 生成 高 质 

量 特定 图 像 的 生成 模型 , 针对 这 一 项 任务 , 提出 的 方法 结合 了 边界 平衡 生成 对 抗 网 络 (boundary equilibrium generative 

adversarial netwotk，BEGAN) 的 优点 ， 添 加 附加 条 件 特 征 以 及 均 方 误差 损失 ， 建 立 条 件 边 界 平衡 生成 对 抗 网 络 
(conditional-BEGAN，C-BEGAN)，, 使 用 这 种 方法 提取 其 中 的 生成 模型 用 于 特定 图 像 的 生成 ,实验 结果 表明 ， 该 方 
法 相 比 于 其 他 监督 类 生成 模型 可 以 使 用 更 简单 的 网 络 达到 更 快 的 收敛 速度 并 且 能 够 生成 具有 更 好 质量 以 及 多 样 性 
的 图 片 。 
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Conditional boundary equilibrium generative adversarial network 


Wang Shuocheng, Gou Gang, Ge Mengyuan 
(College of Computer Science & Technology, Guizhou University, Guizhou 550000, China) 


Abstract: Generative adversarial networks (GAN) is one of the most popular generation models of the year. Using the 
generation antagonistic network and some of its improved models, the model can generate random images, or specific 
images of low quality. At present, there is no generation model that can use simple network structure to generate 
high-quality specific images. For this task, the method combines the advantages of boundary equilibrium generative 
adversarial network(BEGAN) , adds additional condition features and the MSE loss and establishes the conditional 
boundary equilibrium generative adversarial network(C-BEGAN) . This method used to extract the generation model for 
specific image generation. Experimental results show that compared with other supervised class generation models, this 
method can use simpler networks to achieve faster convergence speed and generate images with better quality and diversity. 
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0 引言 编码 器 映 , 并 提出 了 一 种 基于 能 量 的 思想 , 使 得 GAN 在 高 清 
图 片 的 生成 上 有 了 新 的 进步 。 文献 [7] 提 出 了 一 种 学 习 分 布 误 
图 像 生 成 问题 一 直 以 来 都 是 一 个 具有 挑战 性 的 问题 ,对 ” 差 之 间 的 相似 度 而 不 是 学 习 分 布 之 间 的 相似 度 ， 目 前 图 像 生 
于 图 像 生成 模型 的 建 模 非常 困难 ， 通 常 通过 最 大 化 后 验 概率 ”成 模型 的 主要 应 用 场景 都 是 通过 最 小 化 真实 数据 与 生成 数据 
进行 建 模 优化 ， 使 得 在 大 规模 数据 下 变 得 极 难 求解 。 生 成 对 ”之 间 的 分 布 来 生成 图 像 , 如 文献 [8], 通 过 在 条 件 生成 对 抗 网 络 
抗 网 络 (GAN) 是 Goodfellow 等 由 在 2014 年 提出 的 一 种 半  ” 中 加 入 重 构 误差 实现 了 配对 数据 的 图 像 转 换 。 以 及 在 图 像 风 
监督 的 生成 模型 ， 它 是 学 习 数 据 分 布 的 一 种 方法 ， 生 成 对 抗 格 转换 非常 火热 的 cyclegan，discogan，dualganp-10， 都 是 在 
网 络 通过 一 个 生成 模型 和 一 个 判别 模型 相互 对 抗 ， 生 成 模型 ” ”文献 [和 的 基础 上 进行 了 改进 , 通过 引入 条 件 完 成 不 同 风格 图 
拟 合 数据 生成 新 的 样本 ， 判 别 模型 判断 新 生成 的 样本 和 真实 片 之 间 的 转换 。 另 外 ， 利 用 图 像 的 生成 模型 ， 可 以 完成 很 多 
样本 的 真 假 ， 达 到 纳什 均衡 名， 由 于 生成 对 抗 网 络 无 须 构 造 ” 特别 的 任务 ， 如 文献 [12,13]。 然 而 ， 目 前 所 有 的 监督 类 9 
马尔 可 夫 链 反复 采样 ， 无 须 人 为 的 构造 损失 函数 等 优点 ， 使 ”模型 都 通过 拉 近 真实 数据 与 生成 数据 之 间 的 分 布 来 生成 图 
得 GAN 受到 了 大 量 的 关注 , 目前 GAN 已 经 在 图 像 生 成 方 抽 像 ， 利 用 文献 [6] 的 思想 ， 本 文 提出 了 一 种 基于 条 件 的 边界 平 
得 到 了 广泛 的 应 用 。 由 于 生成 对 抗 网 络 有 着 非常 明显 的 优点 ， 衡 生 成 对 抗 网 络 〈C-BEGAN )， 通 过 引入 条 件 特征 学 习 分 布 
日 同时 也 存在 着 收敛 困难 ， 梯 度 消失 ， 梯 度 爆 炸 等 明显 的 缺 ”误差 的 相似 度 ， 并 结合 判别 器 为 自 编 码 器 的 特点 ， 在 判别 器 
陷 ， 之 后 对 GAN 进行 过 多 次 的 改进 。 深 度 卷 积 生成 对 抗 网 “当中 添加 均 方 误差 损失 ， 使 生成 模型 生成 指定 的 样本 ， 实 验 
络 (DCGAN ) BI 首次 将 卷 积 网 络 引 入 进 生成 对 抗 网 络 当中 ， 结果 表明 ， 通 过 更 加 简单 的 网 络 结构 生成 的 图 像 ， 质 量 和 稳 
于 卷 积 网 络 在 图 像 方面 强大 的 特征 提取 能 力 ， 使 得 定性 要 高 于 目前 主流 的 监督 模型 生成 的 图 像 。 
DCGAN 一 度 成 为 图 像 生 成 模型 的 标准 。 原 始 的 GAN 由 于 使 让 
用 随机 的 高 期 噪声 作为 输入 ， 只 能 随机 的 生成 样本 ,文献 [和] 1 ”生成 对 抗 网 络 原 理 
通过 引入 条 件 模型 ， 使 生成 对 抗 网 络 可 以 产生 特定 的 样本 ， 传统 的 GAN 通过 优化 生成 器 ， 使 生成 器 生成 的 图 片 更 
实现 了 数据 增强 等 需求 。 文献 [5] 首 次 将 判别 器 的 结构 改 为 自 ”加 接近 真实 的 图 片 ， 而 通过 优化 判别 器 ， 使 生成 图 片 经 过 判 
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录用 定稿 
别 器 后 接近 于 0， 使 真实 图 片 经 过 判别 器 后 接近 1，GAN 的 


优化 函数 可 以 表示 为 
minmaxY(D,G)= 忆 -assDogDCD]+ 
已 .eu[logd4-D(G(CD)]] 


中 ，x 代表 真实 样本 ， 


二 一 二 
Po 表示 


(1) 


其 实 样本 的 分 布 ，z 表示 
噪声 样本 ，P. 表示 噪声 分 布 ， 通 常 为 高 斯 分 布 ，Goodfellow 
等 证 明 ， 当 生成 器 与 判别 器 达到 最 优 时 ，P: 经 过 生成 器 变换 
后 样本 的 分 布 与 真实 图 像样 本 的 分 布 趋 于 一 致 。 然 而 原始 的 


GAN 存在 着 一 些 缺 点 ， 其 中 之 一 就 是 生成 的 样本 


不 受 控 


制 ， 无 法 产生 特定 的 样本 。 


征 同时 作为 输入 ， 其 目标 函数 如 (2) 所 示 。 
min maxV(D,G)= Es, llog DG|O]+ 
EE.» [log(— D(G(z|c))] 
条 件 生成 对 抗 网 络 


CGAN 的 优化 过 程 与 GAN 类 似 ，CGAN 的 流程 图 
1 所 示 。 


1.1 


真实 数据 
随机 噪声 z 
D 
G 
条 件 特征 c 生成 数据 


图 1 CGAN 流程 图 
Fig.1 CGAN flow chart 


条 件 生成 对 抗 网 络 (CGAN) 在 
GAN 的 基础 上 添加 了 条 件 特征 , 在 生成 器 中 将 噪声 与 条 件 特 
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其 中 ; fl Sx 表示 非 线 性 模型 fy() 是 Lipschitz 常数 为 开 


的 函数 ， 在 生成 对 抗 网 络 中 ， 即 为 判别 器 结构 。 之 后 ， 通 过 
最 小 化 这 一 距离 来 拉 近 真实 样本 和 生成 样本 之 间 的 分 布 。 基 
于 Wasserstein 距离 的 生成 对 抗 网 络 彻 底 解 决 了 模式 裔 省 与 
多 样 性 不 足 等 问题 。 

1.3 ”边界 平衡 生成 对 抗 网 络 
通常 生成 式 对 抗 网 路 的 判别 器 都 是 由 一 个 编码 器 构成 ， 
险 入 的 是 一 张 图 片 ， 输 出 的 是 这 张 图 片 是 真实 样本 的 概率 。 


EBGAN 首次 将 判别 器 的 结构 换 成 自 编 码 器 ， 并 提出 了 一 种 
能 量 的 概念 生成 更 高 质量 的 图 片 。 根 据 EBGAN 和 WGAN 


(2) 


CGAN 接收 随机 噪声 与 条 件 特 征 作为 输入 ， 通 常 条 件 特 


一 


样本 的 监督 模型 。 
1.2 基于 Wasserstein 距离 生成 对 抗 网 络 


征 可 以 为 样本 的 标签 数据 ， 同 时 也 可 以 将 广义 的 图 片 作为 条 
牛 特征 。CGAN 实现 了 将 无 监督 的 GAN 改进 成 了 生成 特定 


虽然 GAN 在 图 像 生成 上 有 着 出 色 的 效果 ， 然 而 在 训练 
中 却 存 在 着 许多 的 问题 ， 如 训练 不 稳定 ， 梯 度 消失 ， 梯 度 爆 


炸 等 ， 因 此 ， 大 量 厂 
WGANI4 从 GAN 的 本 质 出 发 进行 了 改进 ， 
稳定 的 原因 是 当 
数 实际 变 成 了 优化 JS 散 度 与 KS 散 度 问题 ， 
Wasserstein 距离 ，Wasserstein 距离 的 定义 如 下 : 


并 提 


WPO= jp ,Beye-] 
时 中 忆 表示 真实 数据 的 分 布 ，P 表示 生成 数据 的 分 


JI 名) 是 B 和 组 合 起 来 所 有 可 能 的 联合 分 布 的 集 
对 于 每 一 个 可 能 的 分 布 "， 取 得 样本 x 与 ，”， 取 他 们 距 


究 者 针对 GAN 的 这 些 缺 点 进行 了 改进 。 
并 指出 GAN 不 
判别 器 和 生成 器 都 达到 最 优 的 时 候 ， 优 化 函 


出 了 


离 的 


下 界 即 为 Wasserstein 距离 。 但 
据 对 偶 原 理 ， 可 将 公式 转换 为 
WOP,P) ~ 二 Ba[ 人 CO]- 


ASKK 
Ep, [£2)] 


于 ,[ 谎 ;难以 求解 , 因 


期 望 值 Ew-y lx- 冲 ,在 所 有 可 能 的 分 布 中 取得 这 个 期 望 值 的 


此 根 


(4) 


的 特点 , 谷歌 提出 了 一 种 边界 平衡 生成 对 抗 网 络 (BEGAN )， 
通过 估计 分 布 误差 之 间 的 相似 度 而 不 是 估计 分 布 之 间 的 相似 
度 来 还 原 分 布 之 间 的 相似 度 ， 若 真实 数据 与 生成 数据 的 分 布 
误差 相同 ， 那 么 就 认为 他 们 的 真实 分 布 相同 。BEGAN 的 优 
化 函数 如 (5) 所 示 。 
Ly =L(X) -kL(G(zp)) 
Ls=L(G(z6)) 

ku=k+h(yLX) -L(G(ze))) 
LW)=bv-D0Y)| ， 判 别 器 是 一 个 自 编码 器 ， 因 此 L(Y) 表 
示 图 片 v 与 经 过 自 编码 器 D 产生 的 图 片 的 pixel-wise 损失 ， 
寻 此 式 (5) 中 表明 真实 图 像 x 和 x 经 过 D 后 的 图 像 的 
pixel-wise 损失 与 生成 模型 生成 的 图 像 G(z) 和 经 过 DD 后 的 图 
像 D(G(z)) 的 pixel-wise 损失 之 差 。 当 真实 图 像 的 误差 与 生成 
图 像 的 误差 相同 时 训练 完成 。 判 别 器 不 断 的 最 小 化 L(x)， 最 
大 化 L(G(z))， 同 时 生成 器 不 断 最 小 化 L(G(z))。 根 据 
Wasserstein 距离 ， 在 满足 条 件 (6) 的 前 提 下 有 


(5) 


用 中 ， 


ci+c 一 2\/cc 


-是 一 个 常数 或 者 是 单调 递增 的 (6) 
IECLO) -ECLG 
W(LO), L(G) «|ECLO) -ECLGCE 07) 


其 中 : ac 是 Lx) 与 L(G(z)) 的 方差 。 理论 上 当 
E(L()=E(LG(0))) 时 是 最 优 的 ， 但 此 时 条 件 式 (6) 接近 正 无 
穷 ， 因 此 应 用 比例 控制 理论 添加 超 参数 7 ，7 满足 : 
y= EGG 


E(L(X)) (8) 
通过 对 大 的 修改 使 得 判别 器 的 损失 达到 最 优 。 
2 条件 边界 平衡 生成 对 抗 网 络 
基于 条 件 的 边界 平衡 生成 对 抗 网 络 (C-BEGAN ) 综合 


BEGAN 与 CGAN 的 优点 ， 通 过 添加 条 件 特征 生成 特定 的 高 
质量 图 像 。C-BEGAN 的 流程 如 图 2 所 示 。 


条 件 特征 c 一 


像素 化 损失 
四 真实 样本 ? 
D 
随机 噪声 2 站 二 成 村 回 
| G 


像素 化 损失 
图 2 条 件 边界 平衡 生成 对 抗 网 络 流程 


Fig.2 Conditional boundary equilibrium generative adversarial 


network flow chart 
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模型 的 生成 器 接收 随机 噪声 与 条 件 特 征 作为 输入 ， 生 成 
一 张 图 片 , 再 将 生成 的 图 片 与 原 条 件 特征 输入 进 判 别 器 当中 ， 
生成 新 的 图 片 。 同 时 判别 器 接收 真实 的 图 片 与 条 件 特征 作为 
输入 生成 新 的 图 片 。 
2.1 模型 结构 
基于 条 件 的 边界 平衡 生成 对 抗 网 络 (C-BEGAN) 的 生成 
器 是 一 个 解码 器 , 输入 为 噪声 和 条 件 特征 , 输出 为 一 张 图 片 。 
判别 器 是 一 个 自 编码 器 ， 输 入 一 张 图 片 ， 经 编码 后 与 输入 的 
条 件 特征 拼接 ， 再 进行 解码 。 为 了 突出 模型 的 优点 ， 相 比 于 
和 专 统 图 像 生成 的 生成 式 对 抗 网 络 ， 如 DCGAN，WGAN， 
BEGAN， 文 章 构建 了 更 加 简单 的 卷 积 神经 网 络 结构 。 
C-BEGAN 的 生成 器 的 结构 如 图 3 所 示 ， 以 SVHN 数据 
集 为 例 , 该 数据 集 为 32 像素 *32 像素 *3 通道 街景 房屋 号 码 图 
像 ， 首 先 将 一 个 62 维 的 噪声 与 一 个 经 过 编码 后 的 10 维 的 条 
牛 特征 拼接 成 72 维 的 特征 作为 生成 器 的 输入 , 经 过 一 个 全 连 
妆 层 后 转换 成 (128,8,8) 的 三 维 张 量 , 之 后 经 过 一 个 factor 为 2 
的 上 采样 层 形成 (128,16,16) 的 张 量 ， 之 后 通过 一 个 卷 积 核 为 
3*3， 步 长 为 1 的 卷 积 层 (实际 实验 中 可 以 将 这 一 层 的 卷 积 层 
添加 多 个 ), 再 经 过 一 个 factor 为 2 的 上 采样 层 形成 (128,32,32) 
的 张 量 ， 之 后 继续 通过 一 个 卷 积 核 为 3*3， 步 长 为 1 的 卷 积 
层 形成 (64,32,32) 的 张 量 ， 最 后 通过 一 个 卷 积 核 为 3*3， 步 长 
为 1 的 卷 积 核 形成 最 终 (3,32,32) 的 输出 图 片 。 
C-BEGAN 的 判别 器 的 结构 如 图 4 所 示 , 与 传统 的 CGAN 
不 同 ， 首 先 将 输入 的 三 维 张 量 (3,32,32) 经 过 一 个 factor 为 2 
的 下 采样 层 ， 并 通过 一 个 卷 积 核 为 3*3， 步 长 为 1 的 卷 积 层 
形成 (64,16,16) 的 张 量 。 将 该 张 量 转换 成 64*16*16 的 一 维 向 
量 , 并 与 经 过 编码 后 的 条 件 特 征 (10 维 ) 拼 接 成 一 个 一 维 向 量 ， 


上 星 


pa 
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Downsampling(2,2) 


Conv1 w=(3,3)，d=(3,64) 


Resize(64,16,16) 


cat(64*16*16+10) 


Fully Connected 
(64*16*16+10，32) 


Fully Connected 
(32，64*16*16) 


Upsampling(2,2) 


Conv2 w=(3,3), d=(64,3) 
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图 4 C-BEGAN 判别 器 结构 


Fig.4 C-BEGAN discriminator structure 


与 传统 的 CGAN 或 CGAN 的 改进 版 不 同 ， 判 别 器 首先 
开 成 一 维 张 量 再 与 条 件 特征 进行 拼接 ， 


并 没有 将 输入 图 片 居 


而 是 先 对 输入 图 片 进行 编码 ， 


之 后 经 过 一 个 全 连接 层 形成 32 维特 征 向 量 , 再 经 过 一 个 全 连 
接 层 并 转换 〈Reshape) 成 (64,16,16) 的 张 量 ， 之 后 经 过 一 个 
factor 为 2 的 上 采样 层 形成 (64,32,32) 的 张 量 ， 最 后 经 过 一 个 


卷 积 核 为 3*3， 步 长 为 1 的 卷 积 层 形成 最 终 (3,32,32) 的 图 片 。 


C 
z(62) 本 Embedding(10) 
Fully Connected 0 
(62 + 10，128*8*8) 
六 
Co 
站 
Co 
Oo 
Upsampiing(2 人 一 
总 
Conv1 w=(3,3)，d=(128,128) 四 
到 
已 
pa 辐 站 轩 全 
总 
Oo 
村 
Dn 
村 
Dp 
Conv2 w=(3,3), d=(128,64) 
64*32*32 


3*32*32 7 


图 3 C-BEGAN 生成 器 结构 
Fig.3 C-BEGAN generaor Structure 


Conv3 w=(3,3), d=(64,3) erp mage 


量 再 与 条 件 特征 进行 


将 编码 后 的 张 量 展开 为 一 维 张 


拼接 ， 这 样 使 得 判别 器 无 须 将 每 一 层 饼 


在 较 高 的 分 辩 率 下 ， 
的 特征 结构 。 
2.2 ”模型 训练 


的 
输出 都 与 条 件 特征 进行 拼接 也 能 够 生成 高 质量 的 图 片 。 并 且 
直接 将 图 片 展开 成 一 片 


住 张 量 会 破坏 图 


条 件 边 界 平 衡 生 成 对 抗 网 络 的 生成 器 最 大 化 生成 图 片 的 


ZGGClo)， 判 别 器 一 方面 最 小 化 真实 图 片 的 Kxlo ， 一 方面 最 


大 化 生成 器 所 生成 图 


片 


上 是 一 个 自 编 码 器 ， 即 区 


的 KG(zlo) 。 由 于 判别 器 的 结构 本 质 
痊 入 和 输出 都 为 图 片 , 为 了 减 小 误差 ， 


引入 均 方 误差 损失 ，C-BEGAN 的 优化 函数 如 〈9) 所 示 。 
Ly =L(alc) -kL(G(zolo)) 
Ls =L(G(ze|o)+ 


PMSE(D(G(zo |o)|o),Glze lO) 


(9) 


kun=k+Ah(yL(x|c) -L(G(ze |o))) 


中 生成 器 需要 最 小 化 KGGCcelo9) ， 为 了 提高 生成 图 片 的 质 


量 ， 在 生成 器 的 后 
素 化 损失 ， 其 本 身 就 


差 有 着 较 高 的 敏感 度 ， MSE 对 较 大 的 误差 具 
| 添加 MSE 损失 ， 使 得 生成 器 生成 的 
图 片 更 加 的 平滑 , 真实 ,为 了 不 破坏 Wasserstein 距离 的 条 件 ， 
在 判别 器 的 后 面 不 加 入 MSE 损失 。 
每 训练 一 次 生成 器 与 判别 器 后 ， 修 改 参 数 


度 ， 所 以 在 生成 器 的 


MSE 损失 的 权重 。 
天 的 值 ， 使 济 


添加 均 方 误差 损失 ， 
有 具 有志 损失 的 优点 , 而 1 范 数 对 较 小 误 


后 本 


1 别 器 能 够 达到 


由 于 Ze) 本 质 为 像 


了 较 高 的 敏感 


使 用 超 参数 来 控制 


最 优 。 当 生成 器 与 判别 器 收敛 时 ， 


生成 图 片 与 真实 图 片 分 布 


的 误差 近乎 相等 ， 所 以 它们 的 分 布 


近似 相等 。 在 训练 的 过 程 中 ， 需 要 对 参数 做 动态 的 更 新 ， 


为 了 保证 判别 器 损失 的 对 称 
之 间 ， 算 法 使 用 Adam 优 


算法 步骤 如 下 所 示 。 


生 ， 需 要 将 大 的 值 截取 在 〈0,1) 
化 器 优化 损失 函数 ，C-BEGAN 的 


算法 1 C-BEGAN 算法 

算法 1 所 有 的 实验 设置 Batchsize(m=64)，iterations 为 欠 代 次 数 (样本 总 数 与 
批 大 小 的 比值 )，epoch 为 迭代 次 数 〈 遍 历 整 个 数据 集 的 次 数 )， 超 参数 a = 
0.0002, % = 10,7 = 0.75, A\ = 0.01 

for number of training iterations do 


for s steps do 
抽样 m 个 服从 正 态 分 布 的 噪声 样本 {2 中 }， 
抽样 m 个 真实 样本 数据 {29,y 中 } 刀 
生成 m 个 服从 正 态 分 的 条 人 特征 ( Dyn, 


计算 生成 蝇 3 损失; 
Lae=L(G(zGle)) + pMSE(D(G(zGlo)|e, G(zG|e))) 
gw 全 Vw[ 志 Pr fo(z es!) — Te r+ Dm (fo(z®) cy)—2)?] 
wt wa: Adam(w, g,) 
end for 
计算 判别 器 损人 
Lp = lay L(G(zplc)) 
fo en De fo(rO ly) -Te De f(g (ze®)) — 
Dg, (We))| 
0 0—a.: Adam(0, ge) 
有 全 十 AZD 一 Ge) 
k= min(max(k, 0),1) 
end for 
在 实验 的 过 程 中 , 超 参数 ” 4 都 为 固定 值 , 而 需 
要 根据 不 同 的 数据 集 而 改变 , 在 MNIST 实验 中 设 为 1, 而 在 
SVHN 实验 中 设 为 10， 通 常情 况 下 设 为 10。 在 GAN 的 训练 


过 程 中 ， 生 成 器 训练 的 次 数 通 常 比 
以 防止 判别 器 过 于 准确 而 导 
度 ， 基于 Wasserstein 距离 的 模型 


由 别 器 训练 的 次 数 要 多 ， 
致 生成 器 无 法 学 习 到 正确 的 梯 
不 需要 多 次 训练 生成 器 ,在 


实验 中 将 参数 * 设 为 1。 
3 ”实验 

本 文 实验 在 MNIST 数据 集 和 SVHN 数据 集 上 进行 ， 实 
验 在 Intel XeonGR) CPU E5-2650 v4 @ 2.20 GHz 处 理 器 ， 一 


块 NVIDIA Tesla P40 GPU 显卡 ， 
3.1 MNIST 实验 
MNIST 数据 集 是 包含 70000 张 手写 数字 的 灰 度 图 片 , 其 
中 每 一 张 图 片 包含 28X28 个 像素 点 。 总 共有 0-9 十 个 类 别 ， 
其 中 有 60 000 个 训练 样本 和 10 000 个 测试 样本 。 使 用 数据 
的 时 候 , 由 于 判别 器 接收 的 是 一 个 32X32 的 图 像 ， 因 此 需 
日 


Pytorch 环境 下 进行 。 


将 整个 数据 集 转换 为 32X32 的 张 量 , 其 次 , 使 用 数据 前 需 
对 数据 进行 归 一 化 处 理 。 在 生成 器 中 ， 除 最 后 一 层 外 所 有 
卷 积 层 后 都 接 有 一 个 BatchNorm 层 和 一 个 LeakyReLU 激活 
层 ， 在 最 后 一 层 卷 积 层 后面 添 加 一 层 Tanh 层 。 在 判别 器 中 ， 
由 于 需要 与 条 件 特 征 进 行 拼 接 ， 所 以 在 下 采样 层 后 只 添加 一 
层 ReLU 激活 层 ， 不 使 用 BatchNorm 层 0529， 而 在 卷 积 层 后 
添加 了 一 层 BatchNorm 层 和 一 层 ReLU 激活 层 。 
图 5 为 使 用 100 个 条 件 特征 生成 的 样本 ， 每 行 分 别 输入 
:特征 为 0-9， 重 复 10 次 ， 在 实验 过 程 中 ， 仅 仅 经 过 了 
1 次 迭代 ， 模 型 就 学 习 到 了 非常 准确 的 特征 ， 并 且 具 有 一 定 
的 多 样 性 , 当 到 达 50 次 迭代 后 , 生成 器 已 经 能 够 生成 非常 平 
有 多 样 性 的 样本 。 
6 为 C-BEGAN 与 目前 主流 的 生成 模型 加 入 条 件 特 征 
5 次 迭代 后 生成 的 样本 对 比 图 ， 主 要 包括 有 由 多 层 感 
| 成 的 原始 条 件 生成 对 抗 网 络 (CGAN), 深度 卷 积 生成 
络 (DCGAN) 和 基于 Wasserstein 距离 的 WGAN。 除 
C-BEGAN 外 ， 其 他 的 生成 模型 生成 的 样本 均 不 平滑 ， 存 在 
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Fig.6 Contrastfigure of MNIST supervised model generate samples 


图 7 表示 
生成 数据 误差 2 
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下 了 


间 的 差 值 。3 


判别 器 损失 函数 的 变化 趋势 ， 即 
- 始 的 时 候 损 失 就 呈现 了 快速 下 
降 的 趋势 ， 在 达到 五 次 迭代 之 后 损失 值 相对 稳定 ， 之 后 与 9 


天 数据 与 


HT 


成 器 之 间 相 互 对 抗 ， 生 成 的 图 片 变 得 更 加 的 平滑 。 
0 3 DD 3 各 0 WH 7 遇 
epoch 
妈 7 ”判别 器 损失 变化 趋势 


Fig.7 Discriminator loss trend 


录用 定稿 王 硕 诚 ， 


图 8 表示 了 生成 器 损失 函数 的 变化 趋势 ， 即 生成 的 样本 
与 经 过 自 编 码 器 后 生成 的 图 片 的 像素 化 损失 与 MSE 损失 之 
和 。 由 于 加 入 了 均 方 误差 ， 损失 值 较 高 ， 但 在 训练 的 开始 阶 
段 同样 下 降 迅 速 , 在 20 次 迭代 之 后 逐渐 稳定 , 此 时 生成 器 与 
判别 器 的 损失 平衡 。 
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图 8 生成 器 损失 变化 趋势 
Fig.8 Generator loss trend 

3.2 SVNH 实验 

SVHN 数据 集 是 从 谷歌 街景 中 查看 的 房屋 号 码 中 收集 
的 ， 实 验 使 用 Pytorch 提供 的 共 73 257 张 图 片 ， 同 MNIST 
数据 集 一 样 ， 共 0-9 十 个 分 类 ， 每 张 图 片 为 3*32*32 大 小 的 
彩色 图 片 ， 特 征 量 是 MNIST 数据 样本 的 4 倍 。 同 MNIST 数 
据 集 一 样 ， 使 用 了 BatchNorm 批量 归 一 化 层 和 LeakyReLU， 
ReLU 激活 层 的 策略 。 
图 9 为 使 用 同 MNIST 实验 相同 的 100 个 条 件 特征 生成 
的 样本 , 经 过 10 次 迭代 后 ,图 像 较为 平滑 , 但 很 多 样本 并 没 
有 学 习 到 条 件 特征 的 特点 , 经 过 50 次 迭代 后 , 已 经 能 够 生成 
平滑 且 具 有 多 样 性 的 样 


加 /左手 


epoch 50 epoch 100 
图 9 SVHN 生成 样本 

Fig.9 SVHN generate samples 
图 10 为 不 同 的 生成 模型 生成 的 SVHN 样本 对 比 图 ， 经 
过 50 次 的 友 代 , 其 中 只 有 C-BEGAN 模型 生成 的 样本 最 为 清 
晰 ， 其 他 模型 生成 的 样本 均 较为 模糊 ， 其 次 ， 除 C-BEGAN 
外 ， 其 他 模型 生成 样本 的 数字 和 背景 都 不 够 平滑 ， 因 此 ， 
C-BEGAN 模型 收敛 速度 更 快 ， 生 成 样本 质量 更 好 。 
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dcgan cbegan(ours) 

图 10 SVHN 监督 模型 生成 样本 对 比 图 
Fig. 10 Contrast figure of SVHN supervised model generate samples 
原始 的 BEGAN 对 模型 的 依赖 性 不 高 ， 可 以 达到 使 用 比 
DCGAN 更 加 简单 的 模型 达到 预期 的 效果 ， 但 由 于 本 身 为 无 
监督 模型 ， 但 随 着 训练 数据 变 得 复杂 ， 简 单 的 模型 会 使 训练 
变 得 困难 。 如 图 11 所 示 , 图 中 显示 了 使 用 上 述 网 络 构 造 同时 
训练 BEGAN 与 C-BEGAN， 图 中 第 一 张 图 片 为 BEGAN 训 
练 20 次 迭代 后 得 到 的 生成 样本 , 第 二 张 图 片 为 BEGAN 训练 
40 次 后 得 到 的 样本 ， 第 四 张 图 片 为 C-BEGAN 训练 20 次 选 
代 后 得 到 的 样本 ,可 以 看 到 ，BEGAN 训练 20 次 后 得 到 的 样 
本 仅仅 学 习 到 了 背景 特征 ， 而 多 样 性 明显 不 足 ， 产 生 了 模式 
半 溃 ， 而 训练 了 40 次 迭代 后 才 和 C-BEGAN 训练 20 次 和 欠 代 
后 产生 质量 相近 的 样本 。 同时, 在 用 同样 的 网 络 训 练 BEGAN 
的 时 候 ， 经 常会 出 现 训练 失败 的 情况 ， 如 第 三 张 图 片 所 示 ， 
BEGAN 在 训练 了 20 次 迭代 之 后 依然 无 法 找到 正确 的 梯度 。 
而 C-BEGAN 则 能 够 更 好 的 利用 简单 的 网 络 进行 训练 。 


began(c) 


cbegan(ours) 


图 11 began 与 cbegan 生成 样本 


Generate Samples of began and cbegan 


Fig. 11 


NH 


为 了 定量 的 评估 生成 图 片 的 质量 ， 本 文 使 用 了 Inception 
Score(IS ) 评 估 标 准 对 生成 的 1 000 张 图片 做 10 次 平均 评估 ， 
与 其 他 模型 相 比 较 如 表 1 所 示 。 

表 1 不 同 模型 IS 值 对 比 图 
Table ] JS score of different models 


Rl 


Dl 


王 硕 诚 ， 等 : 基于 条 件 的 边界 平衡 生成 对 抗 网 络 


使 用 方法 真实 样本 CGAN DCGAN WGAN C-BEGAN( 本 文 算法 ) 


IS 评分 2.38 1.52 1.40 1.48 1.80 


为 了 证 明 这 种 方法 的 优良 性 质 ， 对 实验 中 各 种 方法 的 网 
络 参数 进行 统计 ， 两 种 实验 使 用 了 相同 的 网 络 结构 ， 统 计 结 
果 如 表 2 所 示 。 


表 2 不 同 模型 的 参数 数量 对 比 


Table 2 The number of arguments of different models 


网 络 CGAN DCGAN WGAN ”C-BEGAN( 本 文 算法 ) 
生成 器 3944 164 3341348 3343 396 820 709 
判别 器 2 104 421 50 908 004 50 912 100 1099 461 


C-BEGAN 生成 器 参数 的 数量 是 其 他 经 典 模型 参数 数量 
的 四 分 之 一 左右 ， 判 别 器 的 参数 是 DCGAN 和 WGAN 判别 
器 参数 的 五 分 之 一 ， 是 原始 CGAN 判别 器 参数 的 二 分 之 一 ， 


对 此 ，C-BEGAN 网 络 使 用 了 更 简单 的 网 络 生成 了 质量 更 高 
对 的 图 片 。 
4 ”结束 语 

目前 主流 的 监督 类 型 的 生成 对 抗 网 络 通过 拉 近 真实 数据 


与 生成 数据 的 分 布 生 成 样本 , 实验 中 发 现 , 加 入 条 件 特征 后 ， 
很 多 类 型 的 生成 对 抗 网 络 并 不 能 发 挥 出 原本 生成 图 像 的 特 
点 ， 例 如 从 本 质 上 解决 了 GAN 模式 朋 省 等 问题 的 WGAN， 
生成 特定 样本 的 能 力 并 不 好 ， 本 文通 过 使 用 BEGAN 拉 近 数 
据 之 间 误 差 的 分 布 ， 加 入 条 件 特征 ， 生 成 指定 的 样本 ， 有 具有 
非常 好 的 表现 ， 生 成 器 的 收敛 速度 与 生成 图 片 的 质量 和 多 样 
性 相 比 于 其 他 模型 具有 一 定 的 优势 。 
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